We address the problem of unsupervised domain adaptation when the source domain differs from the target domain because of a shift in the distribution of a latent subgroup. When this subgroup confounds all observed data, neither covariate shift nor label shift assumptions apply. We show that the optimal target predictor can be non-parametrically identified with the help of concept and proxy variables available only in the source domain, and unlabeled data from the target. The identification results are constructive, immediately suggesting an algorithm for estimating the optimal predictor in the target. For continuous observations, when this algorithm becomes impractical, we propose a latent variable model specific to the data generation process at hand. We show how the approach degrades as the size of the shift changes, and verify that it outperforms both covariate and label shift adjustment.
translated by 谷歌翻译
We introduce the Conditional Independence Regression CovariancE (CIRCE), a measure of conditional independence for multivariate continuous-valued variables. CIRCE applies as a regularizer in settings where we wish to learn neural features $\varphi(X)$ of data $X$ to estimate a target $Y$, while being conditionally independent of a distractor $Z$ given $Y$. Both $Z$ and $Y$ are assumed to be continuous-valued but relatively low dimensional, whereas $X$ and its features may be complex and high dimensional. Relevant settings include domain-invariant learning, fairness, and causal learning. The procedure requires just a single ridge regression from $Y$ to kernelized features of $Z$, which can be done in advance. It is then only necessary to enforce independence of $\varphi(X)$ from residuals of this regression, which is possible with attractive estimation properties and consistency guarantees. By contrast, earlier measures of conditional feature dependence require multiple regressions for each step of feature learning, resulting in more severe bias and variance, and greater computational cost. When sufficiently rich features are used, we establish that CIRCE is zero if and only if $\varphi(X) \perp \!\!\! \perp Z \mid Y$. In experiments, we show superior performance to previous methods on challenging benchmarks, including learning conditionally invariant image features.
translated by 谷歌翻译
Quantifying the deviation of a probability distribution is challenging when the target distribution is defined by a density with an intractable normalizing constant. The kernel Stein discrepancy (KSD) was proposed to address this problem and has been applied to various tasks including diagnosing approximate MCMC samplers and goodness-of-fit testing for unnormalized statistical models. This article investigates a convergence control property of the diffusion kernel Stein discrepancy (DKSD), an instance of the KSD proposed by Barp et al. (2019). We extend the result of Gorham and Mackey (2017), which showed that the KSD controls the bounded-Lipschitz metric, to functions of polynomial growth. Specifically, we prove that the DKSD controls the integral probability metric defined by a class of pseudo-Lipschitz functions, a polynomial generalization of Lipschitz functions. We also provide practical sufficient conditions on the reproducing kernel for the stated property to hold. In particular, we show that the DKSD detects non-convergence in moments with an appropriate kernel.
translated by 谷歌翻译
我们解决了条件平均嵌入(CME)的内核脊回归估算的一致性,这是给定$ y $ x $的条件分布的嵌入到目标重现内核hilbert space $ hilbert space $ hilbert Space $ \ Mathcal {H} _y $ $ $ $ 。 CME允许我们对目标RKHS功能的有条件期望,并已在非参数因果和贝叶斯推论中使用。我们解决了错误指定的设置,其中目标CME位于Hilbert-Schmidt操作员的空间中,该操作员从$ \ Mathcal {H} _X _x $和$ L_2 $和$ \ MATHCAL {H} _Y $ $之间的输入插值空间起作用。该操作员的空间被证明是新定义的矢量值插值空间的同构。使用这种同构,我们在未指定的设置下为经验CME估计量提供了一种新颖的自适应统计学习率。我们的分析表明,我们的费率与最佳$ o(\ log n / n)$速率匹配,而无需假设$ \ Mathcal {h} _y $是有限维度。我们进一步建立了学习率的下限,这表明所获得的上限是最佳的。
translated by 谷歌翻译
我们讨论了多尺度Fisher对Gorsky和MA(2022)提出的多变量依赖的独立性测试,与基于Hilbert-Schmidt独立标准(HSIC)的现有线性时间内核测试相比。我们强调了这样一个事实,即在任何有限样本量的内核测试水平都可以得到准确控制,就像多率级别一样。在我们的实验中,我们观察到测试能力方面的一些性能限制。
translated by 谷歌翻译
我们使用最大平均差异(MMD),Hilbert Schmidt独立标准(HSIC)和内核Stein差异(KSD),,提出了一系列针对两样本,独立性和合适性问题的计算效率,非参数测试,用于两样本,独立性和合适性问题。分别。我们的测试统计数据是不完整的$ u $统计信息,其计算成本与与经典$ u $ u $统计测试相关的样本数量和二次时间之间的线性时间之间的插值。这三个提出的测试在几个内核带宽上汇总,以检测各种尺度的零件:我们称之为结果测试mmdagginc,hsicagginc和ksdagginc。对于测试阈值,我们得出了一个针对野生引导不完整的$ U $ - 统计数据的分位数,该统计是独立的。我们得出了MMDagginc和Hsicagginc的均匀分离率,并准确量化了计算效率和可实现速率之间的权衡:据我们所知,该结果是基于不完整的$ U $统计学的测试新颖的。我们进一步表明,在二次时间案例中,野生引导程序不会对基于更广泛的基于置换的方法进行测试功率,因为​​两者都达到了相同的最小最佳速率(这反过来又与使用Oracle分位数的速率相匹配)。我们通过数值实验对计算效率和测试能力之间的权衡进行数字实验来支持我们的主张。在三个测试框架中,我们观察到我们提出的线性时间聚合测试获得的功率高于当前最新线性时间内核测试。
translated by 谷歌翻译
当原因因错误破坏时,我们提出了基于内核的非参数估计量。我们通过在仪器变量设置中概括估计来做到这一点。尽管在测量误差和测量误差方面进行了重大研究,但在连续环境中处理未观察的混杂件是不平凡的:我们几乎看不到先前的工作。作为我们调查的副产品,我们阐明了平均嵌入和特征功能之间的联系,以及如何同时学习一个人学习另一个人。这为内核方法研究开辟了道路,以利用特征功能估计的现有结果。最后,我们从经验上表明,我们提出的方法MEKIV在测量误差的强度和误差分布的类型上的变化下改善了基线,并且在变化下是可靠的。
translated by 谷歌翻译
我们通过特征平均值研究了一种非参数计算方法,其中对先验特征的期望进行了更新,以产生预期的内核后验特征,基于学识渊博的神经网或观测值的内核特征的回归。贝叶斯更新中涉及的所有数量都从观察到的数据中学到了完全不含模型的方法。最终的算法是基于重要性加权的内核贝叶斯规则(KBR)的新颖实例。这会导致对KBR的原始方法具有较高的数值稳定性,而KBR需要运算符倒置。我们使用对无穷大标准中重要性加权估计器的新一致性分析来显示估计器的收敛性。我们评估了KBR关于挑战合成基准测试的,包括涉及高维图像观测值的状态空间模型的过滤问题。与原始KBR相比,重要性加权KBR的经验表现均匀地表现出更好的经验性能,并且具有其他竞争方法的竞争性能。
translated by 谷歌翻译
我们研究了基于内核Stein差异(KSD)的合适性测试的特性。我们介绍了一种构建一个名为KSDAGG的测试的策略,该测试与不同的核聚集了多个测试。 KSDAGG避免将数据分开以执行内核选择(这会导致测试能力损失),并最大程度地提高了核集合的测试功率。我们提供有关KSDAGG的力量的理论保证:我们证明它达到了收集最小的分离率,直到对数期限。可以在实践中准确计算KSDAGG,因为它依赖于参数bootstrap或野生引导程序来估计分位数和级别校正。特别是,对于固定核的带宽至关重要的选择,它避免了诉诸于任意启发式方法(例如中位数或标准偏差)或数据拆分。我们在合成数据和现实世界中发现KSDAGG优于其他基于自适应KSD的拟合优度测试程序。
translated by 谷歌翻译
模型拼盘可以为实现概率模型创造重大挑战,这导致了一系列推理方法,直接占此问题。但是,是否需要这些更多涉及的方法将取决于模型是否真正遗漏,并且缺乏普遍适用的方法来回答这个问题。一组可以帮助的工具是健美的测试,在那里我们测试数据集是否可以通过固定分发生成。基于内核的测试已经开发出这个问题,由于它们的灵活性,强烈的理论担保和在各种情况下实现的易于实现,因此这些是流行的。在本文中,我们将这一阶段的工作延伸到更具挑战性的综合性良好问题,在那里,我们就是对某些参数家族中的任何分布感兴趣。这相当于测试是否为数据指定了参数模型。
translated by 谷歌翻译